Day 03: 萬丈高樓平地起：Database、資料倉儲與資料湖的三角對決

2025 iThome 鐵人賽

DAY 3

AI & Data

17th鐵人賽 database datawarehouse datalake architecture

141 瀏覽

前言：數據的安身之所

確立了心法，也認識了江湖中的各路英雄，接下來我們要為寶貴的數據尋找一個安身之所。儲存數據的地方，我們統稱為「資料庫」，但隨著數據的種類和應用越來越多樣，光用「資料庫」一個詞已經不足以描述全貌。

今天，我們來拆解三個最關鍵的數據儲存架構：傳統資料庫 (Database)、資料倉儲 (Data Warehouse) 與資料湖 (Data Lake)。這三者不是互相取代，而是為了解決不同問題而生，尤其在 AI 時代，它們更是各司其職，共同支撐著複雜的 AI 應用。

特性	傳統資料庫 (Database)	資料倉儲 (Data Warehouse)	資料湖 (Data Lake)
主要用途	線上交易處理 (OLTP)	商業智慧分析 (BI)	AI 模型訓練、探索性分析
資料類型	結構化資料	結構化、已清理的資料	各種類型 (結構化、非結構化)
資料結構	Schema-on-Write (寫入前定義)	Schema-on-Write (寫入前定義)	Schema-on-Read (讀取時定義)
使用者	應用程式、開發者	資料分析師、業務人員	資料科學家、資料工程師
AI 應用情境	儲存電商訂單、會員資料	彙整銷售報表，分析顧客輪廓	儲存用戶評論(文字)、商品圖片

這是理解三者差異最核心的概念：

Schema-on-Write (寫入前定義結構): 就像你要填一份制式表格（例如報稅單），每一格要填什麼、格式是什麼（文字、數字）都規定得死死的。不符合格式的資料，會被拒絕寫入。
- 優點：資料乾淨、品質高、查詢速度快。
- 代表：傳統資料庫、資料倉儲。
Schema-on-Read (讀取時定義結構): 就像一個巨大的雜物箱，你可以先把各種東西（文字、圖片、影片、聲音檔）都先丟進去。等到要找東西時，再自己決定要怎麼解讀這些東西。
- 優點：彈性極高，可以儲存任何類型的原始資料，不會遺失任何細節。
- 代表：資料湖。

讓我們回到「智慧推薦系統」的例子：

你的每一筆訂單，都即時地寫入傳統資料庫 (Database)，確保交易正確無誤。
每天晚上，資料工程師會將各個資料庫的訂單、會員資料進行清理、整合，放入資料倉儲 (Data Warehouse)，供分析師製作隔天的銷售報表，監控業績。
同時，你留下的**商品評論 (文字）、點擊過的商品圖片 (影像) **等非結構化資料，會被完整地存放在資料湖 (Data Lake)。資料科學家需要這些最原始、最完整的資料，來訓練一個能理解文字語意和圖片風格的深度學習推薦模型。

如果沒有資料湖，AI 模型就失去了最豐富的養分。如果沒有資料倉儲，企業的日常營運分析將寸步難行。如果沒有傳統資料庫，整個交易系統都會崩潰。